专访DIN创始人Harold:Web3数据网络如何打破“AI数据血汗工厂”魔咒?

作者:Zen,PANews

随着AI技术的迅速发展,数据成为驱动其成长的核心动力,其重要性不亚于石油对于现代工业的作用。高质量数据的获取、标注和处理是AI模型训练的基石,而这一过程的大量依赖人工处理、效率低下、成本居高不下和质量参差不齐等问题,使得现有产业链中依然面临巨大挑战。

如币安创始人赵长鹏(CZ)所言,AI数据标注等任务非常适合通过区块链完成,可借助全球低成本劳动力,并通过加密货币即时支付,打破地域限制。CZ还提到,当前仍需更多工具建设,并呼吁开发者共同构建去中心化的AI数据处理生态。

实际上,自人工智能热潮兴起以来,开始专注做去中心化的AI数据业务的项目也不在少数,但鲜有项目能实现商业模式落地,而在BNB生态上表现突出的DIN则是其中一例。DIN目前拥有超过3千万注册用户和百万日活用户,数次居于BNB Chain上AI Dapp排行榜榜首。更为重要的是,DIN不仅带动了去中心化的AI数据经济,同时也开始真正赋能Web2 传统行业发展。

DIN:AI时代数据流水线员工的上岗证

DIN是首个模块化 AI 原生数据预处理层,旨在建立基于人、数据和 AI 协同作用的数据智能网络,让每个人都能为 AI 处理数据并获得报酬。截至目前,DIN总融资已达800万美元,其先于去年7月完成Binance Labs领投的400万美元种子轮融资,又在今年8月完成400万美元Pre-listing(预上市)融资,Manta、Moonbeam、Ankr、Maxx Capital等参投。

专访DIN创始人Harold:Web3数据网络如何打破“AI数据血汗工厂”魔咒?

在采访中,DIN创始人Harold表示,如果用最通俗易懂的方式来对DIN进行介绍,其可以称为“AI时代数据流水线员工的上岗证”, 让全球每个普通人都可以随时随地无门槛参与,享受crypto带来的无边界灵活支付,并瓜分AI发展带来的源源不断的时代现金流红利。“AI 需要海量的数据促进自身的发展,那么每一个人都应该能够因为它产生的数据而受益,DIN希望能够在中间充当一个桥梁,让每一个人生产的数据能够被记录,每个人能获利。”

DIN的名称源自Data Intelligence Network的首字母缩写。在过去三年中,DIN专注于围绕“数据”提供产品和服务,涵盖链上数据、社交媒体内容等链下数据,其前身为Web3数据智能公司Web3Go。在创立该项目前,Harold一直从事于人工智能行业,其领导的团队研发的钢铁表面缺陷检测等AI应用也得到了落地。得益于团队拥有大数据、人工智能和通信领域的多年积累和经验,并在数据赛道深耕多年,DIN已经形成了一套成熟的服务交付体系,且每年均能实现盈利。

区块链实现数据众包革命

众所周知,算法、算力和数据是人工智能的三大核心要素,其中数据是人工智能发展的基础,倘若缺乏足够的数据支持,任何先进的算法和算力都将无从谈起。因此,AI模型的“数据工厂”在人工智能浪潮中愈发举足轻重,该领域的龙头Scale AI于今年5月更是以138 亿美元估值完成了最新一轮高达10亿美元的融资,由硅谷顶级基金Accel领投,YC、英伟达、亚马逊、Meta、AMD等一众科技巨头参投。

Scale AI的客户群体包括医疗、国防、电商、政府服务等多个领域,其通过向客户提供高质量数据,同时将大部分质量保证责任和成本转嫁给个人任务执行者,从而实现盈利。Scale AI众包平台 Remotasks在肯尼亚、菲律宾、委内瑞拉等地区设立了数十家机构,拥有成千上万名数据标注员。

专访DIN创始人Harold:Web3数据网络如何打破“AI数据血汗工厂”魔咒?

然而,这种利润主要集中在中心化公司手中的方式无法更好地激励参与者,也就不能充分解放劳动力。据The Washington Post报道,Scale AI 支付工人的工资极低,经常拖欠或扣留工资,并且几乎没有为工人提供追索渠道。人权组织和劳工研究人员表示,Scale AI 是众多未遵守海外工人基本劳工标准的美国人工智能公司之一。可见,在中心化和垄断化企业主导的人工智能热潮背后,有一支“数字血汗工厂”中的海外劳工大军,他们支持着AI产业的蓬勃发展,但在劳动密集型工作中却时常遭到剥削,未得到应有的回报。

“生产、搜集数据的模式完全是中心化的,我们认为这不利于 AI 技术的长期发展,因为每个人都是数据的生产者,但却并没有从中获得收益。”对于数据垄断和高度中心化的问题,

Harold表示,基于区块链的去中心化和公开透明的特性,通过将AI 数据与之相结合,可利用区块链去管理数据,记录每一个人对数据的生产过程,最终使用区块链去进行结算,使提供数据的用户持续获得收益。

拳头产品xData与Chipper Node连通B、C端

“DIN提供了一套涵盖数据采集、标注、验证及向量化的全栈解决方案,” Harold介绍称。其核心产品 xData 专注于推特内容数据的收集与标注,能够围绕特定项目或话题定向采集内容,将分散的素材汇总为完整的数据库。通过 xData,一方面用户可以低成本、低门槛地参与 AI 数据的采集与标注并获得收益;另一方面,客户也能借此获得更多的曝光机会,同时满足数据收集与处理需求。截至目前,xData 已成功收集并标注超过1亿条推文。

专访DIN创始人Harold:Web3数据网络如何打破“AI数据血汗工厂”魔咒?

AI模型经过多次迭代,其训练过程不仅需要大量数据,还必须确保数据的高质量。“高质量数据是提升模型准确性和可靠性的关键,而低质量数据则可能导致偏差甚至错误的结果。”Harold表示,AI模型在训练和微调时,需要大量经过清理、验证并合格的数据。

在DIN 生态系统中,Chipper Node承担数据“质检”和优化的重要角色。Harold指出,Chipper Node利用用户边缘设备的闲置算力,对 xData 收集的原始数据进行验证、分类、清理和向量化处理。此外,Chipper Node不仅实现了网络内奖励的转换,还推动了经济体系的高效运转,让用户能够随时随地通过挖矿获得收益,最终实现AI数据贡献者的支付闭环。

通过Chipper Node和xData的协同作用,作为桥梁的DIN打通了 B 端企业与 C 端用户之间的连接通路。企业端能够通过DIN生态以更高效、更低成本的方式获取经过验证的优质数据,而用户端则能够以低门槛的方式通过日常的参与贡献数据内容并获得奖励。这种模式不仅实现了数据供需两端的高效匹配,也显著提升了用户的参与感和收益体验,为DIN生态的快速发展注入了强大动力。Harold称,目前DIN总用户数已突破3000万,日活跃用户达70万,DIN每日处理链上交易达100万,展示了高度活跃且可扩展的区块链生态系统。

值得一提的是,DIN的数据被存储在去中心化存储基础设施BNB Greenfield上,后者通过将数据分片并存储在多个节点,显著降低存储成本,同时提高存储效率。此外,得益于优化的分布式存储架构,Greenfield 能提供接近传统 Web2 云存储的访问速度,同时保证去中心化的安全性和可靠性。这使得DIN确保了在为用户提供激励的同时,兼顾数据在网络中传递的安全性和隐私保护。

赋能Web2 传统行业,DIN已真正实现产品落地

与大多数AI+Web3项目停留在畅想大规模采用的阶段不同,DIN提供的AI数据已经开始赋能Web2 传统行业发展。Harold透露,早在几个月前,DIN已和思必驰(AISpeech)旗下的数据标注公司核数聚进行合作,通过BNB Chain 为思必驰小语种进行语音数据的标注和搜集。

思必驰作为国内语音技术领域的独角兽,与科大讯飞齐名,专注于语音识别、语音合成和自然语言处理等核心技术,其技术广泛应用于汽车导航、车载语音助手等产品中,为驾驶员提供高效、便捷的智能交互体验。在全球化的市场背景下,车载系统必须能够支持多语言交互,尤其是在跨国销售和多文化融合的环境中。这需要大量高质量的小语种及方言的语音数据,用于训练语音识别和合成模型。传统的数据标注方式往往成本高昂、周期漫长,难以满足快速迭代的需求。

专访DIN创始人Harold:Web3数据网络如何打破“AI数据血汗工厂”魔咒?

然而,通过利用 DIN 的区块链网络,将小语种语音数据的标注和搜集任务分发到全球的分布式劳动力网络中,将显著提高效率和数据覆盖范围。一方面,DIN 的平台通过多层验证和审核机制,确保标注数据的高质量和一致性,且多语种的覆盖范围使得思必驰能够快速构建和优化其小语种语音模型;而另一方面,所有数据的处理流程都记录在链上,确保透明、可信,方便未来的审计和溯源,这在日益严格的隐私保护和数据合规要求下对语音技术企业至关重要。

DIN 的技术和商业模式不仅证明了去中心化数据网络的可行性,还为传统行业注入了新的增长动能,成为 Web2 与 Web3 融合的重要驱动力。展望未来,DIN 有望将其数据智能网络的能力扩展至医疗、教育、零售等行业,通过应用 AI 数据处理,帮助传统企业实现智能化转型。

在熊市坚守,反哺推动BNB Chain 生态发展

在刚刚过去的熊市环境下,市场流动性差、用户活跃度低、缺乏用户验证产品等问题突出,不断内卷致使获取用户的成本也显著提高。这些挑战无疑对项目的运营和发展带来了巨大压力。Harold坦言,在很多项目通过短期机会“挣快钱”时也让他们有些眼红,但是最终DIN还是选择关注长期价值创造,而非追逐短期利益、急于变现或迎合市场短期波动。

“我们算是一个比较务实和踏实的团队。”Harold补充说,DIN一直以来都更想坚持做正确的事情,这一过程中偶尔会进展缓慢,有时会痛苦难熬,但这正是在前沿科技领域创业的常态,只有咬牙坚持,才能走得更远。

从推动链上数据分析到实现用户友好的AI代理平台,再到开创去中心化的AI数据预处理工具,除了AI数据基础设施的定位外,DIN团队近几年还始终坚持在BNB生态深耕,并在获得其资金、资源等支持后又助推了该生态的发展。例如,DIN推出的Chipper节点预挖矿和xDIN交易不仅带来了显著的交易量和链上活跃度,同时也带来了超过4万个运行中的节点和超过5万个高质量的节点持有者。这进一步激活了BNB Chain的链上数据生态系统,并提升了用户的参与度。

此外,近期,DIN通过节点预挖矿、币安Web3钱包空投活动和币安广场征文大赛,仅一周就为BNB Chain 带来了近750万笔交易,40万次曝光。不仅如此,DIN还帮助币安在短短10天内吸引了超过26万新用户注册。

即将到来的TGE与基于BNB链的L2区块链

恰逢牛市,DIN即将迎来项目发展的关键节点。Harold称,DIN 将在 BNB 链上构建一条专属 L2 数据链,以进一步推动去中心化 AI 数据网络构想的落地。不久后推出的DIN代币则将作为这条 L2 链的核心燃料,用于支付数据存储、节点运营和 AI 代理创建与交易等链上操作的gas费,成为这一去中心化网络的硬通货。

专访DIN创始人Harold:Web3数据网络如何打破“AI数据血汗工厂”魔咒?

此外,DIN代币采用通缩模型,每次代币消耗都会燃烧 DIN,从而持续减少市场供应,带来稀缺性价值。同时,DIN 团队计划定期将其Web2业务产生的利润用于回购代币,以进一步强化其价值支撑。Harold透露,DIN在两年前就已实现盈利,其成熟的 Web2 数据业务为 Web3 发展提供了稳定且可持续的支持。

在本轮牛市,随着 BNB 的流动性显著提升,价格飙升至历史新高,市场对其生态发展的信心空前高涨。不少从业者分析认为,BNB Chain 很可能会在短期内宣布重大动作。而DIN L2 数据链的推出恰逢其时,结合近几个月的表现,其或将充分受益于 BNB Chain 的生态红利,与其共同推动 Web3 数据经济的发展。

总的来看,凭借其在BNB生态的强势表现和成熟的商业模式,DIN正在将去中心化AI数据经济的愿景逐步落地。在即将推出的L2数据链和代币经济体系的加持下,DIN不仅为加密货币行业注入了新的活力,也将为AI和传统数据行业提供更多的可能性。